40 research outputs found

    Recherche d'information sémantique dans les systèmes P2P hétérogènes

    Get PDF
    National audienceNous considérons la recherche d'information sémantique dans les systèmes pair-à-pair. Ces derniers semblent être une solution intéressante pour le partage de données car ils garantissent le passage à l'échelle, et gère la dynamicité. Dans ce contexte, il est difficilement imaginable que tous les participants s'accordent sur l'utilisation d'une même représentation sémantique (schéma, ontologie, graphe conceptuel). Dans ce cas, le système est sémantiquement hétérogène. Cette situation limite l'interopérabilité entre participants. Dans cet article nous montrons quels sont les problématiques liées à l'hétérogénéité sémantique et nous présentons les solutions que nous proposons pour garantir un certain degré d'interopérabilité malgré l'hétérogénéité. L'originalité de ce travail se trouve dans le fait de tenter d'améliorer l'interopérabilité sémantique en s'attaquant directement à la source du problème : l'hétérogénéité

    Ontology-Based Quality Evaluation of Value Generalization Hierarchies for Data Anonymization

    Full text link
    In privacy-preserving data publishing, approaches using Value Generalization Hierarchies (VGHs) form an important class of anonymization algorithms. VGHs play a key role in the utility of published datasets as they dictate how the anonymization of the data occurs. For categorical attributes, it is imperative to preserve the semantics of the original data in order to achieve a higher utility. Despite this, semantics have not being formally considered in the specification of VGHs. Moreover, there are no methods that allow the users to assess the quality of their VGH. In this paper, we propose a measurement scheme, based on ontologies, to quantitatively evaluate the quality of VGHs, in terms of semantic consistency and taxonomic organization, with the aim of producing higher-quality anonymizations. We demonstrate, through a case study, how our evaluation scheme can be used to compare the quality of multiple VGHs and can help to identify faulty VGHs.Comment: 18 pages, 7 figures, presented in the Privacy in Statistical Databases Conference 2014 (Ibiza, Spain

    Synthetic Data Generation using Benerator Tool

    Full text link
    Datasets of different characteristics are needed by the research community for experimental purposes. However, real data may be difficult to obtain due to privacy concerns. Moreover, real data may not meet specific characteristics which are needed to verify new approaches under certain conditions. Given these limitations, the use of synthetic data is a viable alternative to complement the real data. In this report, we describe the process followed to generate synthetic data using Benerator, a publicly available tool. The results show that the synthetic data preserves a high level of accuracy compared to the original data. The generated datasets correspond to microdata containing records with social, economic and demographic data which mimics the distribution of aggregated statistics from the 2011 Irish Census data.Comment: 12 pages, 5 figures, 10 reference

    Personalization through query explanation and document adaptation

    Get PDF
    International audienceWe present a new formal approach to retrieval personaliza- tion which emcompasses a query personalization process at the user's side with a light document adaptation at the in- formation server's side. Our solution relies on the use of a domain ontology: queries and documents are in fact indexed by sets of concepts. For each concept of the query, the query personalization process allows to express the importance of linked concepts, which may vary according to the search con- text. Each query concept can be ”clarified” by this process; although the proposed method clarifies only central query concepts. The initial query as well as its defined clarifica- tions are sent to the server. Then, the server reconsiders its document representations based on both the query and the concepts clarifications it received. The proposed solution does not require that the information server maintains any user profile, and can be useful when, for privacy concerns, it is committed not to profiling the users

    Mysins : Make Your Semantic INformation System

    Get PDF
    Article court accompagnant une démonstration logicielle. I.S.B.N. : 9782854289220International audienceLa sémantique est de plus en plus utilisée dans différents domaines comme la recherche d'information (RI) et le Web sémantique. Dans le domaine de la RI, différents participants interviennent : des fournisseurs d'informations et des utilisateurs. L'utilisation de la sémantique nécessite la mise en œuvre de mécanismes précis. En RI, il s'agit entre autre de l'utilisation d'ontologies, du calcul de similarité et de l'indexation. L'étude de chacun de ces axes nécessite un effort important de synthèse et d'intégration. Pour palier le manque évident d'une architecture générique distribuée pour la conception de systèmes d'information sémantiques, nous proposons un framework : Mysins

    Contributions au problème d'hétérogénéité sémantique dans les systèmes pair-à-pair : application à la recherche d'information

    Get PDF
    We consider peer-to-peer (P2P) data sharing systems in which each peer is free to choose the ontology that best fit its needs to represent its data. This is what we call semantic heterogeneity. This situation prevents from perfect interoperability because queries issued by peers may be misunderstood by other peers. First we focus on the notion of semantic heterogeneity because it seems to us that it is a complex notion. We define several measures allowing to precisely characterize semantic heterogeneity of a P2P system according to different facets. Second we define two protocols. The first one, called CorDis, allows to reduce semantic heterogeneity related to the disparities between peers. It disseminates correspondences in the system so that peers learn new correspondences. The second protocol, called GoOD-TA, allows to reduce semantic heterogeneity related to the topology of a system. The goal is to organize it in way that semantically close peers are close in the system. Thus two peers are neighbours if they use the same ontology, or if numerous correspondences exist between their respective ontologies. Third we propose an algorithm called DiQuESH for the routing and the treatment of top-k queries in semantically heterogeneous P2P systems. This algorithm allows a peer to retrieve the k most relevant documents from its neighbourhood. We experimentally show that CorDis and GoOD-TA improve results obtained by DiQuESH.Nous considérons des systèmes pair-à-pair (P2P) pour le partage de données dans lesquels chaque pair est libre de choisir l'ontologie qui correspond le mieux à ses besoins pour représenter ses données. Nous parlons alors d'hétérogénéité sémantique. Cette situation est un frein important à l'interopérabilité car les requêtes émises par les pairs peuvent être incomprises par d'autres. Dans un premier temps nous nous focalisons sur la notion d'hétérogénéité sémantique. Nous définissons un ensemble de mesures permettant de caractériser finement l'hétérogénéité d'un système suivant différentes facettes. Dans un deuxième temps nous définissons deux protocoles. Le premier, appelé CorDis, permet de réduire l'hétérogénéité sémantique liée aux disparités entre pairs. Il dissémine des correspondances dans le système afin que les pairs apprennent de nouvelles correspondances. Le second protocole, appelé GoOD-TA, permet de réduire l'hétérogénéité sémantique d'un système liée à son organisation. L'objectif est d'organiser le système de sorte que les pairs proches sémantiquement soient proches dans le système. Ainsi deux pairs deviennent voisins s'ils utilisent la même ontologie ou s'il existe de nombreuses correspondances entre leurs ontologies respectives. Enfin, dans un trois temps, nous proposons l'algorithme DiQuESH pour le routage et le traitement de requêtes top-k dans les systèmes P2P sémantiquement hétérogènes. Cet algorithme permet à un pair d'obtenir les k documents les plus pertinents de son voisinage. Nous montrons expérimentalement que les protocoles CorDis et GoOD-TA améliorent les résultats obtenus par DiQuESH

    Reducing the Semantic Heterogeneity of Unstructured P2P Systems: A Contribution Based on a Dissemination Protocol

    No full text
    International audienceIn resource sharing P2P systems with autonomous partici- pants, each peer is free to use the ontology with which it annotates its resources. Semantic heterogeneity occurs when the peers do not use the same ontology. For example, a contributing peer A (e.g. a doctor) may annotate its photos, diagrams, data sets with some ontology of its own, while peer B (e.g. a genetician) uses another one. In order to answer a query issued in the system, peers need to know alignments that state correspondences between entities of two ontologies. Assuming that each peer has some partial initial knowledge of some alignments, we focus on correspondences sharing between the peers as a means to learn ad- ditional correspondences. We first provide several measures of semantic heterogeneity that enable to draw a semantic picture of the system and to evaluate the efficiency of protocols independently of query evaluation. We propose CorDis, a gossip-based protocol that disseminates the cor- respondences that the peers want to share in the system. To overcome the peers’ storage limitations, we propose to consider a history of past queries and to favor the correspondences involving frequently used enti- ties. We study several policies that a peer may adopt in case of inconsis- tency i.e. when shared correspondences conflict with its own knowledge. We conduct experiments with a set of 93 ontologies actively used in the biomedical domain. We evaluate the CorDis protocol with respect to the proposed measures of semantic heterogeneity and show its good behavior for decreasing them in several contexts
    corecore